https://www.youtube.com/watch?v=M2Yg1kwPpts
- 今天使用AI的方式:人类给予明确的口令,AI根据这一个口令做一个动作
- AI Agent:人类给予目标,AI自动想办法完成
如何打造AI Agent?
RL

- 缺点:每一个任务都需要一个rl模型去训练
LLM

从LLM的角度看Agent要解决的问题

以LLM运行Agent的优势
- 原来以Alphago为例,它局限于事先设定好的有限的行为,只能在棋盘上落子;使用LLM,它有近乎无限的可能,而且可以使用外部工具
- 例如都是一个AI programmer出现了Compile error,如果是Typical Agent的话,就会给Agent一个Reward=-1,但是为什么是-1呢? 如果是LLM Agent我们可以直接把错误的log发给agent,它获得更多资讯,就会给出更好的结果
AI Agent举例
- Minecraft中的AI NPC
- 让AI使用电脑
- 用AI做科学研究
对于更加真实的互动情景
- 回合制互动到即时互动,外部环境变了,就立即采取新的行动
AI Agent关键能力
AI 如何根据经验调整行为
很多语言模型可以根据回馈来改变行为,不用调整或更新参数
Read模块其实相当于一个RAG模块,只不过检索的是自己的记忆
StreamBench 正面的反馈比负面的反馈更有用,也就是说你要告诉ai要去做什么,而不是不要做什么
Write就是决定目前的对话要不要存入Memory里
Reflection就是对记忆做出更高层次的总结和抽象,可以形成知识图谱
有记忆的GPT
AI如何使用工具
- 工具可以看做Function,使用工具就是调用这些Function,使用工具又叫Function Call
- 模型不必在意工具内部是怎么样运作的,只需要知道给它什么样的输入,可以得到什么样的输出
如何使用工具?

- 最常使用的就是搜索引擎
- 可以使用其他AI作为工具,例如一个只能识别文本的模型,可以使用语音识别的模型来得到文字,或者用户的情绪分析等
非常多工具怎么办?
做一个Tool Selection 模块来选择工具,其实跟RAG很像
而且模型可以自己写一个function当做工具自己来用
工具也会出错?
- 例如调用温度的function,如果得到100度,他会说这个温度不合理
- 内部的knowledge和外部的knowledge在做竞争
什么样的外部资讯比较容易说服AI?
- 跟自己内部知识比较相近的
- 相比于人类,更相信AI同类
就算工具可靠,不代表AI就不会犯错
AI能不能做计划
- 计划赶不上变化
PlanBench
- LLM做计划?会不会是从资料里拿出来的?
- 创造一个新规则体系来测试
方法
- Tree Search for Language Model Agents
- 做出的动作覆水难收,那就把制作计划当做“梦境”,找出一个成功的solution再做出行动